Ekstrakcja tekstu z plików PDF za pomocą OCR

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Ekstrakcja tekstu z plików PDF za pomocą OCR

Iron Tesseract może odczytywać wiele formatów obrazów oraz dokumentów PDF. Ta funkcja nie jest możliwa przy użyciu konwencjonalnych darmowych silników Tesseract.

OcrInput oferuje opcje automatycznego korygowania charakterystyk PDF, jeśli skany są słabej jakości.

Deweloperzy mogą określić, czy odczytywać cały PDF, wybrane strony, czy pojedynczy obszar kadrowania.

Jak wykonać OCR pliku PDF w C#

Pobierz bibliotekę C# do wykonywania OCR na pliku PDF
Użyj metody AddPdf, aby dodać dokument PDF
Dodaj określone strony dokumentu PDF za pomocą metody AddPdfPages
Użyj metody Read, aby wykonać OCR na dodanym PDF
Wyświetl wszystkie wartości kodów QR we właściwości Barcodes. Uzyskaj dostęp do właściwości Text, aby pobrać wynik OCR

OCR PDF w C

Wiele narzędzi OCR działa poprawnie w optymalnych warunkach, ale gdy potrzebujesz czegoś, co zapewnia stabilność i dokładność w każdych warunkach, rozwiązanie do ekstrakcji tekstu IronOCR jest właśnie tym, czego potrzebujesz.

IronOCR do ekstrakcji tekstu zostało zbudowane od podstaw z możliwością konwersji rzeczywistych obrazów z 99-procentową dokładnością.

IronTesseract, nasza natywna biblioteka OCR w C#, potrafi rozpoznawać znaki niemal w ludzki sposób z rzeczywistych obrazów, które nie zawsze są dobrej jakości i czasami są przechylone.

Nasz OCR pozwala automatycznie korygować charakterystyki PDF lub obrazów, jeśli skany są słabej jakości.

Przeprowadzając cię przez najlepsze w swojej klasie rozwiązanie OCR dostępne dzisiaj, będziesz mógł zobaczyć to sam.

Dlaczego IronOCR do ekstrakcji tekstu OCR z obrazów lub PDF?

Wybór rozwiązania IronOCR do zarządzania Tesseract jest oczywisty, jeśli weźmiemy pod uwagę jego unikalne zdolności, które obejmują następujące:

Silnik IronOCR do ekstrakcji tekstu OCR z PDF działa prosto z pudełka w czystym .NET
Nie wymaga instalacji Tesseract na twoim komputerze.
Działa doskonale z najnowszymi silnikami: Tesseract 5 (jak również Tesseract 4 i 3).
Jest dostępne dla każdego projektu .NET: .NET Framework 4.5 +, .NET Standard 2 +, oraz .NET Core 2, 3 i 5!
Ma poprawioną dokładność i szybkość w porównaniu z innymi otwartymi Tesseractami.
IronOCR wspiera platformy rozwoju Xamarin, Mono, Azure i Docker.
Kompleksowe systemy słownika Tesseract można zarządzać przy użyciu pakietów NuGet.
Można wyodrębnić tekst z plików PDF, Tiff wieloklatkowych i wszystkich głównych plików obrazów bez dodatków.
Można korygować słabej jakości i przechylone skany obrazów, aby uzyskać najlepsze wyniki z projektu ekstrakcji tekstu.

Czy masz skany o niskiej jakości? Żaden problem!

IronOCR wyróżnia się na wyższym poziomie, gdy chodzi o zadania OCR. W rzeczywistości wiele podobnych produktów zostało zaprojektowanych do pracy z maszynowo drukowanym, wysokiej rozdzielczości tekstem lub obrazami, co sprawia, że stają się niedokładne lub zawodzą w realnych aplikacjach. Jednakże, to nie dotyczy IronOCR.

IronOCR wyróżnia się w poprawianiu niedoskonałych dokumentów. Można wyprostować przechylony zeskanowany obraz i poprawić niskiej jakości zdjęcia, aby stały się przeszukiwalnymi dokumentami PDF lub obrazami. To właśnie sprawia, że nasz produkt wyróżnia się na tle innych.

Dostrój działanie IronOCR do swoich potrzeb

Z rozwiązaniem OCR od Iron Software możesz dostroić wydajność zadań ekstrakcji tekstu, aby uzyskać odpowiednią równowagę dla swojego przepływu pracy. Wiemy, że to jest bardzo ważne dla wielu użytkowników i deweloperów, dlatego zbudowaliśmy nasze rozwiązanie OCR jako regulowane i elastyczne.

Na przykład jednym z ważnych czynników wpływających na szybkość pracy zadań OCR jest jakość obrazu wejściowego. Gdy jest mniej zakłóceń w tle, a obraz ma wyższą rozdzielczość (200 dpi to dobry zakres), praca przebiega szybciej i wyniki OCR są bardziej dokładne. Jednakże, dzięki funkcji dostrajania IronOCR, nawet zadania z obrazami o niskiej jakości mogą zostać szybko wykonane.

Ponadto, wybieranie obrazów wejściowych lub formatów skanowanego tekstu o mniejszych zakłóceniach cyfrowych, takich jak PNG lub TIFF, może także przynieść szybsze rezultaty niż obrazy o niższej jakości, takie jak JPEG.

Instalacja rozwiązania IronOCR to pestka

Suite Iron Software jest bardzo łatwy do zainstalowania i działania. Jest dostępny dla najpopularniejszych platform rozwijania. Nasze rozwiązanie ma wsparcie multiplatformowe obejmujące Windows, Linux, macOS, Azure, AWS, i Docker - jest powód, dla którego C# czyni go najbardziej preferowanym silnikiem Tesseract OCR wśród deweloperów.

Wsparcie dla ponad 125 języków międzynarodowych

Do zadań OCR, oprogramowanie staje się bardziej użyteczne, gdy wspiera wiele języków. Rozwiązanie IronOCR czyni siebie niezastąpionym, ponieważ wspiera 125 języków międzynarodowych. Te języki mogą być instalowane za pomocą pakietów językowych dystrybuowanych jako pliki DLL. Można je pobrać z tej strony lub z menedżera pakietów NuGet dla Visual Studio.

Jak zainstalować pakiety językowe OCR

Obsługiwanych jest sto dwadzieścia języków. Możesz pobrać dowolne dodatkowe pakiety językowe OCR na dwa sposoby:

Zainstaluj pakiet NuGet

Wyszukaj NuGet dla IronOCR Languages.

Używając metody danych OCR

Download the ocrdata file and add it to your .NET project or program files.

Łatwo stwórz przeszukiwalne dokumenty z zeskanowanych plików lub obrazów

Jedna z funkcji, z której bardzo jesteśmy dumni, jest zdolność naszego oprogramowania Tesseract do tworzenia przeszukiwalnego dokumentu PDF lub przeszukiwalnego tekstu z obrazów wejściowych lub zeskanowanego pliku PDF. Możesz eksportować wynik OCR jako PDF, który będzie przeszukiwalnym dokumentem PDF w C# oraz VB.NET. Może to naprawdę pomóc firmom i rządom przy wypełnianiu baz danych, SEO i PDFach.

Wykorzystaj potęgę najlepszego narzędzia OCR

IronOCR jest narzędziem najwyższej klasy do ekstrakcji tekstu z obrazów i dokumentów. Dostarcza szereg funkcji, funkcjonalności i rozwiązań, które zapewniają gładkie i łatwe doświadczenie przy wykonywaniu zadań OCR.

Nasze biblioteki OCR Tesseract w C# mogą pomóc wyodrębnić tekst z obrazów i zeskanowanych dokumentów w środowiskach programistycznych takich jak aplikacje C# i .NET.

Za pomocą IronOCR można łatwo otwierać dokumenty PDF zabezpieczone hasłem oraz wyodrębnić tekst.

Posiada również następujące cechy:

Nie wymaga plików wykonywalnych ani kodu C++
Pełna obsługa OCR dla PDFów
Zgodny z aplikacjami MVC, Web App, Desktop, Console i Server
Kompleksowa obsługa .NET Core, Standard oraz Framework
Read using C# & VB .NET
Odczytuje kody QR oraz kreski
Eksportuje OCR do XHTML lub przeszukiwalnego dokumentu PDF
Wspiera wielowątkowość
Wyodrębnia obrazy, współrzędne, statystyki, czcionki i wiele więcej

Zrób odważny krok w stronę IronOCR

Biorąc pod uwagę funkcje tego niewiarygodnego rozwiązania OCR, nie można się mylić, decydując się na wypróbowanie IronOCR.

Używanie naszego oprogramowania to zaledwie kilka kliknięć. Zacznij instalując IronOCR - to niezwykle proste zadanie. Ponadto, są niezwykle pomocne i szczegółowe przewodniki krok po kroku dotyczące używania któregokolwiek z naszych narzędzi i przewodniki jak to działanie, nie wspominając o naszym zasobnym centrum wsparcia, które odpowiada na zapytania tak szybko, jak to możliwe (niemal natychmiast).

Nie wahaj się - wybierz IronOCR już dziś. To jest pierwszy i najważniejszy krok w nauce, jak czytać pliki PDF w C#.

Jeśli masz jakiekolwiek wątpliwości, nasz darmowy klucz licencyjny próbny jest dla ciebie idealny. Może pomóc ci odkryć pełny potencjał najnowszej wersji IronOCR bez warunków finansowych. Może pomóc ci zdecydować, która licencja oprogramowania jest dla ciebie odpowiednia. Jeśli nie jesteś pewny, proszę nie wahaj się skontaktować z naszym zespołem ekspertów, niezależnie od twojego miejsca.

Naucz się tworzyć przeszukiwalne dokumenty PDF z IronOCR